成功的人工智能系统通常需要大量标记的数据来从文档图像中提取信息。在本文中,我们研究了改善人工智能系统在理解文档图像中的性能的问题,尤其是在培训数据受到限制的情况下。我们通过使用加强学习提出一种新颖的填充方法来解决问题。我们的方法将信息提取模型视为策略网络,并使用策略梯度培训来更新模型,以最大程度地提高补充传统跨凝结损失的综合奖励功能。我们使用标签和专家反馈在四个数据集上进行的实验表明,我们的填充机制始终提高最先进的信息提取器的性能,尤其是在小型培训数据制度中。
translated by 谷歌翻译
法律文本的自动摘要是一个重要的且仍然是一个具有挑战性的任务,因为法律文件往往是长期的,并且具有不寻常的结构和风格。深层模型的最近进步培训结束于终端以可分辨率的损失总结自然文本,但在适用于合法领域时,它们会显示有限的结果。在本文中,我们建议使用强化学习来培养当前的深度摘要模型,以提高其对法律领域的表现。为此,我们采用了近端政策优化方法,并引入了新的奖励函数,鼓励一代满足词汇和语义标准的候选摘要。我们将我们的方法应用于培训不同的摘要骨架,并在3个公共法律数据集中遵守一致而显着的性能增益。
translated by 谷歌翻译
深度学习已成功地用于解决从大数据分析到计算机视觉和人级控制的各种复杂问题。但是,还采用了深度学习进步来创建可能构成隐私,民主和国家安全威胁的软件。最近出现的那些深度学习驱动的应用程序之一是Deepfake。 DeepFake算法可以创建人类无法将它们与真实图像区分开的假图像和视频。因此,可以自动检测和评估数字视觉媒体完整性的技术的建议是必不可少的。本文介绍了一项用于创造深击的算法的调查,更重要的是,提出的方法旨在检测迄今为止文献中的深击。我们对与Deepfake技术有关的挑战,研究趋势和方向进行了广泛的讨论。通过回顾深层味和最先进的深层检测方法的背景,本研究提供了深入的深层技术的概述,并促进了新的,更强大的方法的发展,以应对日益挑战性的深击。
translated by 谷歌翻译
Pareto Front Learning (PFL) was recently introduced as an effective approach to obtain a mapping function from a given trade-off vector to a solution on the Pareto front, which solves the multi-objective optimization (MOO) problem. Due to the inherent trade-off between conflicting objectives, PFL offers a flexible approach in many scenarios in which the decision makers can not specify the preference of one Pareto solution over another, and must switch between them depending on the situation. However, existing PFL methods ignore the relationship between the solutions during the optimization process, which hinders the quality of the obtained front. To overcome this issue, we propose a novel PFL framework namely \ourmodel, which employs a hypernetwork to generate multiple solutions from a set of diverse trade-off preferences and enhance the quality of the Pareto front by maximizing the Hypervolume indicator defined by these solutions. The experimental results on several MOO machine learning tasks show that the proposed framework significantly outperforms the baselines in producing the trade-off Pareto front.
translated by 谷歌翻译
无数据知识蒸馏(DFKD)最近引起了人们的关注,这要归功于其在不使用培训数据的情况下将知识从教师网络转移到学生网络的吸引力。主要思想是使用发电机合成数据以培训学生。随着发电机的更新,合成数据的分布将发生变化。如果发电机和学生接受对手的训练,使学生忘记了先前一步获得的知识,则这种分配转换可能会很大。为了减轻这个问题,我们提出了一种简单而有效的方法,称为动量对抗蒸馏(MAD),该方法维持了发电机的指数移动平均值(EMA)副本,并使用发电机和EMA生成器的合成样品来培训学生。由于EMA发电机可以被视为发电机旧版本的合奏,并且与发电机相比,更新的更改通常会发生较小的变化,因此对其合成样本进行培训可以帮助学生回顾过去的知识,并防止学生适应太快的速度发电机的新更新。我们在六个基准数据集上进行的实验,包括ImageNet和Place365,表明MAD的性能优于竞争方法来处理大型分配转移问题。我们的方法还与现有的DFKD方法相比,甚至在某些情况下达到了最新的方法。
translated by 谷歌翻译
COVID-19大流行已经暴露了全球医疗服务的脆弱性,增加了开发新颖的工具来提供快速且具有成本效益的筛查和诊断的需求。临床报告表明,Covid-19感染可能导致心脏损伤,心电图(ECG)可以作为Covid-19的诊断生物标志物。这项研究旨在利用ECG信号自动检测COVID-19。我们提出了一种从ECG纸记录中提取ECG信号的新方法,然后将其送入一维卷积神经网络(1D-CNN)中,以学习和诊断疾病。为了评估数字信号的质量,标记了基于纸张的ECG图像中的R峰。之后,将从每个图像计算的RR间隔与相应数字化信号的RR间隔进行比较。 COVID-19 ECG图像数据集上的实验表明,提出的数字化方法能够正确捕获原始信号,平均绝对误差为28.11 ms。我们提出的1D-CNN模型在数字化的心电图信号上进行了训练,允许准确识别患有COVID-19和其他受试者的个体,分类精度为98.42%,95.63%和98.50%,用于分类COVID-19 vs.正常,与正常人分类, COVID-19与异常心跳和Covid-19和其他类别分别与其他阶级。此外,提出的方法还为多分类任务实现了高级的性能。我们的发现表明,经过数字化的心电图信号训练的深度学习系统可以作为诊断Covid-19的潜在工具。
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
鉴于在各种条件和背景下捕获的图像的识别药物已经变得越来越重要。已经致力于利用基于深度学习的方法来解决文献中的药丸识别问题。但是,由于药丸的外观之间的相似性很高,因此经常发生错误识别,因此识别药丸是一个挑战。为此,在本文中,我们介绍了一种名为Pika的新颖方法,该方法利用外部知识来增强药丸识别精度。具体来说,我们解决了一种实用的情况(我们称之为上下文药丸识别),旨在在患者药丸摄入量的情况下识别药丸。首先,我们提出了一种新的方法,用于建模在存在外部数据源的情况下,在这种情况下,在存在外部处方的情况下,药丸之间的隐式关联。其次,我们提出了一个基于步行的图形嵌入模型,该模型从图形空间转换为矢量空间,并提取药丸的凝结关系。第三,提供了最终框架,该框架利用基于图像的视觉和基于图的关系特征来完成药丸识别任务。在此框架内,每种药丸的视觉表示形式都映射到图形嵌入空间,然后用来通过图表执行注意力,从而产生了有助于最终分类的语义丰富的上下文矢量。据我们所知,这是第一项使用外部处方数据来建立药物之间的关联并使用此帮助信息对其进行分类的研究。皮卡(Pika)的体系结构轻巧,并且具有将识别骨架纳入任何识别骨架的灵活性。实验结果表明,通过利用外部知识图,与基线相比,PIKA可以将识别精度从4.8%提高到34.1%。
translated by 谷歌翻译
心血管疾病(CVD)是一组心脏和血管疾病,是对人类健康最严重的危险之一,此类患者的数量仍在增长。早期,准确的检测在成功治疗和干预中起着关键作用。心电图(ECG)是识别各种心血管异常的金标准。在临床实践和当前大多数研究中,主要使用标准的12铅ECG。但是,使用较少的铅可以使ECG更加普遍,因为可以通过便携式或可穿戴设备来方便地记录它。在这项研究中,我们开发了一种新颖的深度学习系统,以仅使用三个ECG铅来准确识别多个心血管异常。
translated by 谷歌翻译
本文旨在解决多个对象跟踪(MOT),这是计算机视觉中的一个重要问题,但由于许多实际问题,尤其是阻塞,因此仍然具有挑战性。确实,我们提出了一种新的实时深度透视图 - 了解多个对象跟踪(DP-MOT)方法,以解决MOT中的闭塞问题。首先提出了一个简单但有效的主题深度估计(SODE),以在2D场景中自动以无监督的方式自动订购检测到的受试者的深度位置。使用SODE的输出,提出了一个新的活动伪3D KALMAN滤波器,即具有动态控制变量的Kalman滤波器的简单但有效的扩展,以动态更新对象的运动。此外,在数据关联步骤中提出了一种新的高阶关联方法,以合并检测到的对象之间的一阶和二阶关系。与标准MOT基准的最新MOT方法相比,提出的方法始终达到最先进的性能。
translated by 谷歌翻译